Файл abalone.data содержит данные о возрасте и физ. характеристиках молюсков.
## sex length diameter height
## Female:1307 Min. :0.075 Min. :0.0550 Min. :0.0000
## Infant:1342 1st Qu.:0.450 1st Qu.:0.3500 1st Qu.:0.1150
## Male :1527 Median :0.545 Median :0.4250 Median :0.1400
## Mean :0.524 Mean :0.4079 Mean :0.1395
## 3rd Qu.:0.615 3rd Qu.:0.4800 3rd Qu.:0.1650
## Max. :0.815 Max. :0.6500 Max. :1.1300
## whole_weight shucked_weight viscera_weight shell_weight
## Min. :0.0020 Min. :0.0010 Min. :0.00050 Min. :0.0015
## 1st Qu.:0.4415 1st Qu.:0.1860 1st Qu.:0.09337 1st Qu.:0.1300
## Median :0.7997 Median :0.3360 Median :0.17100 Median :0.2340
## Mean :0.8288 Mean :0.3594 Mean :0.18061 Mean :0.2389
## 3rd Qu.:1.1533 3rd Qu.:0.5020 3rd Qu.:0.25300 3rd Qu.:0.3290
## Max. :2.8255 Max. :1.4880 Max. :0.76000 Max. :1.0050
## rings
## Min. : 1.000
## 1st Qu.: 8.000
## Median : 9.000
## Mean : 9.932
## 3rd Qu.:11.000
## Max. :29.000
При построении гистограм наблюдаются положительная и отрицательная ассиметрия.
Предполагается, что наблюдаются зависимости веса от диаметра и веса от высоты.
Характеристики линейной модели для зависимости веса от диаметра:
##
## Call:
## lm(formula = data$diameter ~ data$whole_weight, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.198038 -0.015281 0.008041 0.024858 0.114478
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.252664 0.001143 221.1 <2e-16 ***
## data$whole_weight 0.187288 0.001187 157.8 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03761 on 4174 degrees of freedom
## Multiple R-squared: 0.8565, Adjusted R-squared: 0.8564
## F-statistic: 2.491e+04 on 1 and 4174 DF, p-value: < 2.2e-16
Характеристики линейной модели для зависимости веса от высоты:
##
## Call:
## lm(formula = data$height ~ data$whole_weight, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.14742 -0.01031 -0.00035 0.00993 1.00688
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0816199 0.0007291 111.95 <2e-16 ***
## data$whole_weight 0.0698672 0.0007571 92.29 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.02399 on 4174 degrees of freedom
## Multiple R-squared: 0.6711, Adjusted R-squared: 0.671
## F-statistic: 8517 on 1 and 4174 DF, p-value: < 2.2e-16
Обзор датафрейма без выбросов:
## sex length diameter height
## Female:1278 Min. :0.1850 Min. :0.2000 Min. :0.0000
## Infant:1227 1st Qu.:0.4600 1st Qu.:0.3550 1st Qu.:0.1150
## Male :1461 Median :0.5450 Median :0.4250 Median :0.1450
## Mean :0.5304 Mean :0.4131 Mean :0.1408
## 3rd Qu.:0.6150 3rd Qu.:0.4800 3rd Qu.:0.1650
## Max. :0.7600 Max. :0.6000 Max. :0.2500
## whole_weight shucked_weight viscera_weight shell_weight
## Min. :0.0765 Min. :0.0300 Min. :0.0105 Min. :0.0215
## 1st Qu.:0.4646 1st Qu.:0.1970 1st Qu.:0.0995 1st Qu.:0.1366
## Median :0.8085 Median :0.3410 Median :0.1722 Median :0.2350
## Mean :0.8281 Mean :0.3583 Mean :0.1808 Mean :0.2396
## 3rd Qu.:1.1439 3rd Qu.:0.4980 3rd Qu.:0.2499 3rd Qu.:0.3250
## Max. :1.9965 Max. :1.0260 Max. :0.5410 Max. :0.8150
## rings
## Min. : 4.00
## 1st Qu.: 8.00
## Median :10.00
## Mean :10.06
## 3rd Qu.:11.00
## Max. :29.00
Характеристики линейной модели для зависимости веса от диаметра без выбросов:
##
## Call:
## lm(formula = data$diameter ~ data$whole_weight, data = data.noout)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.198038 -0.015281 0.008041 0.024858 0.114478
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.252664 0.001143 221.1 <2e-16 ***
## data$whole_weight 0.187288 0.001187 157.8 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03761 on 4174 degrees of freedom
## Multiple R-squared: 0.8565, Adjusted R-squared: 0.8564
## F-statistic: 2.491e+04 on 1 and 4174 DF, p-value: < 2.2e-16
Характеристики линейной модели для зависимости веса от высоты без выбросов:
##
## Call:
## lm(formula = data$height ~ data$whole_weight, data = data.noout)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.14742 -0.01031 -0.00035 0.00993 1.00688
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0816199 0.0007291 111.95 <2e-16 ***
## data$whole_weight 0.0698672 0.0007571 92.29 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.02399 on 4174 degrees of freedom
## Multiple R-squared: 0.6711, Adjusted R-squared: 0.671
## F-statistic: 8517 on 1 and 4174 DF, p-value: < 2.2e-16
Для этого массив разделен случайно на две части.
Затем линейная модель была подогнана по первой части.
Во второй части массива спрогнозировованы значения.
Качество прогноза составляет для зависимости веса от длины
## [1] 0.737099
для зависимости веса от высоты
## [1] 0.737099